Back
把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上,理解回报、熵、概率比、clip、critic 与组内相对优势。
强化学习
rl
ppo
grpo
最大熵
policy gradient
rlhf
llm
从 MDP 单步概率出发,推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE,以及 PPO 的 ratio 与 clip。
reinforce
actor-critic
gae